台灣俗語說「吃果子拜樹頭,吃米飯拜田頭」,竟然要學習、使用 Hadoop,那就要先了解 Hadoop 的歷史與發源。
Hadoop 的原生計畫是 Nutch - 一個被設計作為搜尋引擎的計畫。隨著 Nutch 所含加得網頁數量不斷上升原有的搜索能力逐漸跟不上,因此 Nutch 開發團隊引入 Google 所發表的 MapReduce 架構,以及 GFS (Google File System) 解決了大量網頁抓取後的儲存與索引問題,在這之後,開發團隊從 Nutch 中將 MapReduce 和 NDFS (Nutch Distributed Filesystem) 獨立出來並命名為 Hadoop,Hadoop 就此誕生。
Fun Fact
Hadoop 的命名由來是其共同創辦人 Doug Cutting `取自小孩的黃色大象玩具,Hadoop 不具備任何其他意義。
作者以 MacOS 及 Hadoop 2.10 版為例
Hadoop 是由 Java 開發而成,因此在安裝 Hadoop 之前,必須先確保電腦已具備 JDK,依照 Hadoop Java Versions 的指示,Hadoop 2.X 支援 Java 7 和 Java 8,而 Hadoop 3.X 支援 Java 8,考量到未來可能會使用 Hadoop 3.X,因此在這裡先安裝 Java 8,以省去未來再次安裝的煩惱。安裝好 Java 8 後,請至 .zshrc
設定 JAVA_HOME 的環境變數。
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_261.jdk/Contents/Home
接下來,請至 Apache Hadoop 下載 Hadoop 2.10.0 Binary,下載後請將該檔案解壓縮至你想存放的位置。
在準備好 Java 及 Hadoop 後,請打開終端機輸入以下指令(路徑為解壓縮後的位置):
export HADOOP_HOME={路徑}/hadoop-2.10.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
完成後請輸入下列指令確認 Hadoop 已安裝完成
hadoop version
若是成功安裝,則會顯示下列資訊
Hadoop 2.10.0
Subversion ssh://git.corp.linkedin.com:29418/hadoop/hadoop.git -r e2f1f118e465e787d8567dfa6e2f3b72a0eb9194
Compiled by jhung on 2019-10-22T19:10Z
Compiled with protoc 2.5.0
From source with checksum 7b2d8877c5ce8c9a2cca5c7e81aa4026
This command was run using /Users/alphacamp/Documents/hadoop-2.10.0/share/hadoop/common/hadoop-common-2.10.0.jar
今晚逐漸見底的啤酒是 Coronado 的 Never Better DIPA,這是一隻主打雙倍 IPA 的啤酒,入口濃郁的啤酒花香與深沈的苦澀,最後的結尾卻是如此的俐落,如果你是喜歡 IPA 的朋友,不妨來一瓶陪伴你寫 code 的夜晚吧!今天先這樣,我們明天見!